以DSP架構驅動的CNN引擎,在成本與功耗上皆具優勢。全球DSP核心主要供應商CEVA認為,若要在嵌入式系統中實現CNN,DSP將能取代GPU和CPU,因CNN在本質上,就十分適合運用DSP。此外,CEVA也推出CDNN網路產生器,協助將訓練完成的網路,配置到邊緣運算裝置中,同時為市場提供更形完善的低功耗嵌入式解決方案。
CEVA汽車市場部門總監Jeff VanWashenova表示,DSP能有效地實現卷積神經網路(Convolutional Neural Network, CNN),是因為DSP的架構能夠實現平行處理,且其為可充分運用的核心。相較GPU只能達到40~50%的使用率,DSP可以達到90%以上的核心使用率。
VanWashenova進一步表示,與典型的混合式CPU/GPU的處理架構方案相比,建基於DSP架構的CNN引擎,能提供高達近三倍的性能。而且,DSP引擎除了所需電源比GPU小30倍之外,所需的記憶體頻寬,也只有約GPU的五分之一。CNN演算法,屬於乘法和加法密集型(Multiply-accumulate, MAC),因此本質上十分適合運用DSP。也就是說,若要在嵌入式系統中實現CNN,DSP不僅能夠取代GPU和CPU,而且成本和功耗更低。
VanWashenova指出,當神經網路配置到現場進行「推斷」時,CEVA擁有的優勢便可充分發揮,這些優勢不僅展現在處理方面,還在於可採用現有的網路,並可在嵌入式DSP上運行。神經網路的訓練過程是在大型運算平台上完成,並具有32位元浮點精度。然而,訓練完成的網路,對於低功耗嵌入式解決方案來說通常太大,因此可運用CEVA的CDNN網路產生器,將網路轉換成16位元定點。該工具不僅可縮小網路規模,還可最佳化該網路,以便在CEVA XM DSP和CDNN硬體加速器上運行。
這也是目前CEVA客戶經常面臨的問題,就是如何把一些在GPU這樣大型且昂貴的運算器平台上所開發的網路,進行實際配置。因為在大規模部署的產品中,功率、尺寸和效能都有所限制,與大型運算平台並不相同。
對AI而言,要求最嚴苛的領先市場就是汽車產業。為了確保汽車應用的可靠性和性能,必須降低延遲,而且精度是至關重要的。除此之外,汽車正在使用的攝影相機功能,從2百萬像素(MP)到8百萬像素,幀率通常在30fps或更高。且往往是多個攝影相機一起使用,並有多個並行處理同時地進行。
VanWashenova指出,CEVA目前正與許多領先的一級汽車供應商和原始設備製造商合作,以確保透過硬體和軟體兩方面,皆能支援網路和拓樸結構。在硬體方面,CEVA提供視覺和神經網路處理器和加速器(CEVA-XM、CDNN HWA),而軟體方面則提供神經網路軟體框架(CDNN2)。